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上 节 课 我 们 主要 介绍 了 Random Forest 算 法 模型 。Random Forest 就 是 通过 bagging 的 
方式 将 许多 不 同 的 decision tree 组 合 起 来 。 除 此 之 外 ， 在 decision tree 中 加 入 了 各 种 随 
机 性 和 多 样 性 ， 比 如 不 同 特征 的 线性 组 合 等 。RF 还 可 以 使 用 OOB 样 本 进行 self- 
validation， 而 且 可 以 通过 permutation test 进 行 feature selection。 本 节 课 将 使 用 
Adaptive Boosting 的 方法 来 研究 decision tree 的 一 些 算法 和 模型 。 


Adaptive Boosted Decision Tree 


Random Forest 的 算法 流程 我 们 上 节 课 也 详细 介绍 过 ， 就 是 先 通过 bootstrapping' 复 
制 "原样 本 集 D， 得 到 新 的 样本 集 D'; 然后 对 每 个 D' 进 行 训练 得 到 不 同 的 decision tree 和 
对 应 的 g; ;最 后 再 将 所 有 的 gi 通过 uniform 的 形式 组 合 起 来 ， 即 以 投票 的 方式 得 到 G。 
这 里 采用 的 Bagging 的 方式 ， 也 就 是 把 每 个 % 的 预测 值 直接 相 加 。 现 在 ， 如 果 将 
Bagging 蔡 换 成 AdaBoost， 人 处理 方式 有 些 不 同 。 首 先 每 轮 bootstrap 得 到 的 D' 中 每 个 样 
会 赋予 不 同 的 权重 ul ; 然后 在 每 个 decision tree 中 ， 利 用 这 些 权重 训练 得 到 最 好 的 
gi ;最 后 得 出 每 个 gt 所 占 的 权重 ， 线 性 组 合 得 到 G。 这 种 模型 称 为 AdaBoost-D Tree。 


function RandomForest(D) function AdaBoost-DTree(D) 
Or DE= T orl==0 lm 
@ request size-N' data Di by @ reweight data by ul? 
bootstrapping with D 
@ obtain tree g: by @ obtain tree 9i by 
Randomized-DTree 人 万,) DTree(D,ut) 


@ calculate vote a: of g; 


return G = Uniform({9:}) return G = LinearHypo( {(9:, oi)}) 





但 是 在 AdaBoost-DTree 中 需要 注意 的 一 点 是 每 个 样本 的 权重 ul。 我 们 知道 ， 在 
Adaptive Boosting 中 进行 了 bootstrap 操 作 ，ww 由 表示 DD 中 每 个 样本 在 D' 中 出 现 的 次 
数 。 但 是 在 决策 树 模型 中 ， 例 如 C&RT 算 法 中 并 没有 引入 wu(。 那 么 ， 如 何在 决策 树 中 


引入 这 些 权重 wu( 来 得 到 不 同 的 gy 而 又 不 改变 原来 的 决策 树 算法 呢 ? 


在 Adaptive Boosting 中 ， 我 们 使 用 了 weighted algorithm， 形 如 : 


1 N 
n=1 


每 个 犯错 误 的 样本 点 乘 以 相应 的 权重 ， 求 和 再 平均 ， 最 终 得 到 了 Ew (h)。 如 果 在 决策 
树 中 使 用 这 种 方法 ， 将 当前 分 支 下 犯错 误 的 点 赋予 权重 ， 每 层 分 支 都 这 样 做 ， 会 比较 
复杂 ， 不 易 求解 。 为 了 简化 运算 ， 保 持 决策 树 算法 本 身 的 稳定 性 和 封闭 性 ， 我 们 可 以 
把 决策 树 算法 当成 一 个 黑 盒 子 ， 即 不 改变 其 结构 ， 不 对 算法 本 身 进 行 修改 ， 而 从 数据 
来 源 D' 上 做 一 些 处 理 。 按 照 这 种 思想 ， 我 们 来 看 权重 u 实 际 上 表示 该 样本 在 bootstrap 

中 出 现 的 次 数 ， 反 映 了 它 出 现 的 概率 。 那 么 可 以 根据 u 值 ， 对 原样 本 集 D 进 行 一 次 重新 
的 随机 sampling， 也 就 是 带 权重 的 随机 抽样 。sampling 之 后 ， 会 得 到 一 个 新 的 D'， 

D' 中 每 个 样本 出 现 的 几率 与 它 权 重 u 所 占 的 比例 应 该 是 差不多 接近 的 。 因 此 ， 使 用 带 权 
重 的 sampling 操 作 ， 得 到 了 新 的 样本 数据 集 D'， 可 以 直接 代入 决策 树 进行 训练 ， 从 而 

无 需 改变 决策 树 算 法 结构 。sampling 可 看 成 是 bootstrap 的 反 操 作 ， 这 种 对 数据 本 身 进 
行 修改 而 不 更 改 算法 结构 的 方法 非常 重要 ! 





/le le eel ul A General Randomized Base 
Bagging Algorithm 
weights yu expressed by weights u expressed by 
bootstrap-sampled copies sampling proportional to wn 
一 request size-N' data 也， 一 request size-N' data 也， 
by bootstrapping with D by sampling x u on D 


所 以 ，AdaBoost-DTree 结 合 了 AdaBoost 和 DTree， 但 是 做 了 一 点 小 小 的 改变 ， 就 是 使 
用 sampling 替 代 权 重 u(? ， 效 果 是 相同 的 。 


AdaBoost-DTree: often via _ 
AdaBoost + sampling x ut + DTree(D’) 
without modifying DTree 


上 面 我 们 通过 使 用 sampling， 将 不 同 的 样本 集 代入 决策 树 中 ， 得 到 不 同 的 g:。 除 此 之 
外 ， 我 们 还 要 确定 每 个 % 所 占 的 权重 ar 。 之 前 我 们 在 AdaBoost 中 已 经 介绍 过 ， 首 先 算 
出 每 个 gi 的 错误 率 et ， 然 后 计算 权重 : 


Qt = no 一 /7 a 
Et 
如 果 现 在 有 一 棵 完全 长 成 的 树 (fully grown tree) ， 由 所 有 的 样本 x 训 | 练 得 到 。 若 每 
个 样本 都 不 相同 的 话 ， 一 刀 刀 切割 分 支 ， 直 到 所 有 的 zy 都 被 完全 分 开 。 这 时 候 ， 
Ein (gi) 二 0， 加 权 的 五 (gt ) = 0 而 且 e: 也 为 0， 从 而 得 到 权重 as 二 co。oa 二 co 


表示 该 % 所 占 的 权重 无 限 大 ， 相 当 于 它 一 个 就 决定 了 G 结 构 ， 是 一 种 autocracy， 而 其 
它 的 % 对 G 没 有 影响 。 


if fully grown tree trained on all xn 
—> Ein(g9:) = 0 if all xn different 
一 En(gt) =0 


n 
= 一 个 


一 at = co (autocracy!!) 


显然 Qt 二 co 不 是 我 们 想 看 到 的 ， 因 为 autocracy 总 是 不 好 的 ， 我 们 希望 使 用 
aggregation 将 不 同 的 % 结 合 起 来 ， 发 挥 集体 智慧 来 得 到 最 好 的 模型 G。 首 先 ， 我 们 来 
看 一 下 什么 原因 造成 了 a* 二 co。 有 两 个 原因 : 一 个 是 使 用 了 所 有 的 样本 Zn 进行 训 
练 ; 一 个 是 树 的 分 支 过 多 ，fully grown。 针 对 这 两 个 原因 ， 我 们 可 以 对 树 做 一 些 修剪 
(pruned) ， 比 如 只 使 用 一 部 分 样本 ， 这 在 sampling 的 操作 中 已 经 起 到 这 类 作用 ， 
为 必然 有 些 样本 没有 被 采样 到 。 除 此 之 外 ， 我 们 还 可 以 限制 树 的 高 度 ， 让 分 支 不 要 那 
么 多 ， 从 而 避免 树 fully grown。 


need: pruned tree trained on some xn to be weak 
。 pruned: usual pruning, or just limiting tree height 
。 some: sampling x u(? 


因此 ，AdaBoost-DTree 使 用 的 是 pruned DTree， 也 就 是 说 将 这 些 预测 效果 较 弱 的 树 结 
合 起 来 ， 得 到 最 好 的 G， 避 免 出 现 autocracy。 
AdaBoost-D Tree: often via AdaBoost + 


sampling < u(? + pruned DTree(D) 


刚才 我 们 说 了 可 以 限制 树 的 高 度 ， 那 索性 将 树 的 高 度 限 制 到 最 低 ， 即 只 有 1 层 高 的 时 
候 ， 有 什么 特性 呢 ? 当 树 高 为 1 的 时 人 息 ， 整 棵 树 只 有 两 个 分 支 ， 切 割 一 次 即 可 。 如 果 


impurity 是 binary classification error 的 话 ， 那 么 此 时 的 AdaBoost-DTree 就 跟 
AdaBoost-Stump 没 什么 两 样 。 也 就 是 说 AdaBoost-Stump 是 AdaBoost-DTree 的 一 种 特 
殊 情 况 。 


DTree (C&RT) with height < 1 
learn branching criteria 


2 
b(x)= argmin >》 |De with 川 .impurity(Pe with h) 
decision stumps h(x) 1 


—if impurity = binary classification error, 
just a decision stump, remember? :-) 


值得 一 提 是 ， 如 果树 高 为 1 时 ， 通 常 较 难 遇 到 ex = 0 的 情况 ， 且 一 般 不 采用 sampling 
的 操作 ， 而 是 直接 将 权重 u 代 入 到 算法 中 。 这 是 因为 此 时 的 AdaBoost-DTree 就 相当 于 
是 AdaBoost-Stump， 而 AdaBoost-Stump 就 是 直接 使 用 u 来 优化 模型 的 。 


Optimization View of AdaBoost 


接 下 来 ,我们 继续 将 继续 探讨 AdaBoost 算 法 的 一 些 奥妙 之 处 。 我们 知道 AdaBoost 中 
的 权重 的 运 代 计算 如 下 所 示 : 


ut) 


ut ‘$1: if incorrect 
ul /%: if correct 


es ud O19 (Xn) = ud . exp (一 ynatgt(xn)) 


之 前 对 于 incorrect 样 本 和 correct 样 本 ，vwlt+1) 的 表达 式 不 同 。 现 在 ， 把 两 种 情况 结合 
起 来 ， 将 wtt+D) 写成 一 种 简化 的 形式 : 


a i ule) . Or ynge(on) 一 ul exp(—yn Qt gi (zn)) 


其 中 ， 对 于 incorrect 样 本 ，Wn gi (zxn) < 0， 对 于 correct 样 本 ,yngi (xn) > 0。 从 上 
式 可 以 看 出 ，u(t+ 由 ww 与 某 个 常数 相 乘 得 到 。 所 以 ， 最 后 一 轮 更 新 的 u( 1 可 以 
写成 v 人 如 的 级 联 形式 ， 我 们 之 前 令 ul) 二 二 ， 则 有 如 下 推导 : 


T T 
(T+41) (1) 1 
Un, = Un I exp(—Yyn A gt (zn )) Nv ezp(—yn 2 QQ9t (zn )) 


上 式 中 》 ;1 Qtgt (zn ) 被 称 为 voting score， 最 终 的 模型 
G = sign(5jt_1 Qtg9t (zn))。 可 以 看 出 ,在 AdaBoost 中 ， 1 
exp(—yn (voting score on zn )) 成 正比 。 


. 
1 下 
UH) uM) | | exp( 一 ynat9t(xn)) 一 N * Exp (~ 2 atgt(Xn) ) 
f=1 


FE 


。 recall: G(x) = Sign ( 人 not | 
t=1 


e。 >》 aitgt(X) : voting score of {g:} on x 
{=1 





AdaBoost: 由 十 ) x exp( 一 yn( voting score on xn )) 


接 下 来 我 们 继续 看 一 下 voting score 中 蕴含 了 哪些 内 容 。 如 下 图 所 示 ，voting score 由 
许多 gi (zn ) 乘 以 各 自 的 系数 % 线 性 组 合 而 成 。 从 另外 一 个 角度 来 看 ， 我 们 可 以 把 

gi (zn ) 看 成 是 对 zx 的 特征 转换 9; (zn ) ，% 就 是 线性 模型 中 的 权重 wi; 。 看 到 这 里 ， 我 
们 回忆 起 之 前 SVM 中 ，w 与 $9(xn ) 的 乘积 再 除 以 w 的 长 度 就 是 margin， 即 点 到 边界 的 
距离 。 另 外 ， 乘 积 项 再 与 如 相 乘 ， 表 示 点 的 位 置 是 在 正确 的 那 一 侧 还 是 错误 的 那 一 
侧 。 所 以 ， 回 过 头 来 ， 这 里 的 voting score 实 际 上 可 以 看 成 是 没有 正规 化 (没有 除 以 w 
的 长 度 ) 的 距离 ， 即 可 以 看 成 是 该 点 到 分 类 边界 距离 的 一 种 衡量 。 从 效果 上 说 ， 距 离 
越 大越 好 ， 也 就 是 说 voting score 要 尽 可 能 大 一 些 。 


linear blending = LinModel + hypotheses as transform + CDPEHEIRNES 


voting score 
天 
G(xn) = Sign Se at Gi(Xn) 


t=1 wi gi(xn) 


and hard-margin SVM margin = 和 remember? :-) 


我 们 再 来 看 ， 若 voting score 与 如 相 乘 ， 则 表示 一 个 有 对 错 之 分 的 距离 。 也 就 是 说 ， 
如 果 二 者 相 乘 是 负数 ， 则 表示 该 点 在 错误 的 一 边 ， 分 类 错误 ; 如 果 二 者 相 乘 是 正 数 ， 
则 表示 该 点 在 正确 的 一 边 ， 分 类 正确 。 所 以 ， 我 们 算法 的 目的 就 是 让 yn 与 voting 
score 的 乘积 是 正 的 ， 而 且 越 大 越 好 。 那 么 在 刚刚 推导 的 w& + 中， 得 到 
exp( 一 yn (voting score)) 越 小 越 好 ， 从 而 得 到 wu +， 越 小 越 好 。 也 就 是 说 ， 如 果 
voting score 表 现 不 错 ， 与 wy; 的 乘积 越 大 的 话 ， 那么 相应 的 ut +， 应 该 是 最 小 的 。 


yn(voting score) = signed & unnormalized margin 


want yn(voting score) positive & large 
会 exp( 一 yn(voting score)) small 


T+1 
二 ul' 1") small 


那么 在 AdaBoost 中 ， 随 着 每 轮 学 习 的 进行 ， 每 个 样本 的 vt) 是 逐渐 减 小 的 ， 直 到 

wu + 了 最小。 以 上 是 从 单个 样本 点 来 看 的 。 总 体 来 看 ， 所 有 样本 的 ut + 之 和 应 该 也 
是 最 小 的 。 我 们 的 目标 就 是 在 最 后 一 轮 (T+1) 学 习 后 ， 让 所 有 样本 的 ut * 之 和 尽 
可 能 地 小 。wu( + 之 和 表示 为 如 下 形式 : 


claim: AdaBoost decreases > _| ul and thus somewhat minimizes 
ei 
De = yom (~ ovale) ) 
n=1 n=1 t=1 


上 式 中 ， S Qtgi (zn ) 被 称 为 linear score， 用 s 表 示 。 对 于 0/1 error: 若 ys<0， 则 
er70/1 三 1; 若 ys>=0， 则 erroy1 三 0。 如 下 图 右边 黑色 折线 所 示 。 对 于 上 式 中 提 到 
的 指数 error， 即 efr4D4(s,y) 二 exp( 一 ys)， 随 着 ys 的 增加 ，error 单 调 下 降 ， 且 始 
终 落 在 0/1 error 折 线 的 上 面 。 如 下 图 右边 蓝 色 曲线 所 示 。 很 明显 ，efr4p4(s,Y) 可 以 
看 成 是 0/1 error 的 上 界 。 所 以 ， 我 们 可 以 使 用 efr 4 pa (s,y) 来 替代 0/1 error， 能 达到 
同样 的 效果 。 从 这 点 来 说 ， ,wu 1 可 以 看 成 是 一 种 error measure， 而 我 们 的 
目标 就 是 让 其 最 小 化 ， 求 出 最 小 值 时 对 应 的 各 个 Qi 和 gi (zn )。 


linear score s = , atgt(Xn) 一 0 








® erro/1(s,y)= [ys < 0] ss 
。 errapa(s,y) = exp(—ys): 2 
upper bound of erro/1 1 
—called exponential error 0 


measure 





erraoa: algorithmic error measure 
by convex upper bound of erro/i 


下 面 我 们 来 研究 如 何 让 5 六 ,wu 久 1 取得 最 小 值 ， 思 考 是 否 能 用 梯度 下 降 (gradient 


descent) 的 方法 来 进行 求解 。 我 们 之 前 介绍 过 gradient descent 的 核心 是 在 某 点 处 做 
一 阶 泰勒 展开 : 


recall: gradient descent (remember? :-)), at iteration ! 
min En(Wi+IV TEnW)+ 7 Vv'VEn(w:i) 
IIvll=1 这 一 一 人 


known given positive known 


其 中 ，wi 是 泰勒 展开 的 位 置 ，v 是 所 要 求 的 下 降 的 最 好 方向 ， 它 是 梯度 V Ein, (wi ) 的 
反方 向 ， 而 7 是 每 次 前 进 的 步 长 。 则 每 次 沿 着 当前 梯度 的 反方 向 走 一 小 步 ， 就 会 不 断 
逼近 谷底 (最 小 值 ) 。 这 就 是 梯度 下 降 算 法 所 做 的 事情 。 


现在 ， 我 们 对 五 4Dp4 做 梯度 下 降 算法 处 理 ， 区 别 是 这 里 的 方向 是 一 个 函数 9%: ， 而 不 是 
一 个 向 量 w:。 其 实 ， 函 数 和 向 量 的 唯一 区 别 就 是 一 个 下 标 是 连续 的 ， 另 一 个 下 标 是 离 
散 的 ， 二 者 在 梯度 下 降 算 法 应 用 上 并 没有 大 的 区 别 。 因 此 ， 按 照 梯度 下 降 算 法 的 展开 
式 ， 做 出 如 下 推导 : 


at iteration +, to find g;, solve 


N 1t—1 
l 和 ~ 1 
dnb Ema = N 2 区 SE Qrgr(Xn)++ hte ) ) 


Tr 三 1 


N 
= Su exp(—ynnh(xn)) 
n=1 


N N N 
tayl 
”Su (1 yanh(xn)) = 5 ul 1S wD ynh(xn) 
n=1 


n=1 m=1 


上 式 中 ，j(zw) 表 示 当 前 的 方向 ， 它 是 一 个 矩 ，7 是 沿 着 当前 方向 前 进 的 步 长 。 我 们 要 
求 出 这 样 的 A(z ) 和 7， 使 得 疡 4D4 是 在 不 断 减 小 的 。 当 轧 4p4 取得 最 小 值 的 时 候 ， 
那么 所 有 的 方向 即 最 佳 的 h(x; ) 和 "就 都 解 出 来 了 。 上 述 推导 使 用 了 在 

一 ynnh(zn) 一 0 处 的 一 阶 泰 勒 展开 近似 。 这 样 经 过 推导 之 后 ， 方 4p4 被 分 解 为 两 个 
部 分 ， 一 个 是 前 N 个 u 之 和 5 ,wl 由 ， 也 就 是 当前 所 有 的 轧 ;, 之 和 ; 另外 一 个 是 包含 
下 一 步 前 进 的 方向 (2) 和 步 进 长 度 n 的 项 一 并 wu) ynh(z)。 六 4pD4 的 这 种 形 
式 与 gradient descent 的 形式 基本 是 一 致 的 。 


那么 接 下 来 ， 如 果 要 最 小 化 轧 4p4 的话 ， 就 要 让 第 二 项 -7 N_i uv 的 gj(zn ) 越 小 
越 好 。 则 我 们 的 目标 就 是 找到 一 个 好 的 (zx) ( 即 好 的 方向 ) 来 最 小 化 
六 | ww (一 yh(zn))， 此 时 先 忽 略 步 进 长 度 n。 


finding good hm (function direction) < minimize 2 ul (一 yph(xn)) 


对 于 binary classification， 思 和 万 (Zn ) 均 限定 取 值 -1 或 +1 两 种 。 我 们 对 
下 u(ynh(zn)) 做 一 些 推 导 和 平移 运算 : 


for binary classification, where yn and h(xn) both € {—1,+1}: 
(t) 四 (Df —1 ifyn= h(xn) 
> Ms > es 
(1) (1) if yn = h(xn) 
-4 + | 2 ifyn @# h(xn) 


= -> uD +2EY"(h).N 


一 who minimizes Eu (h)? A in AdaBoost! :-) 


最 终 5Y ,ul (一 yh(zn)) 化 简 为 两 项 组 成 ， 一 项 是 六， wu 外 ; 另 一 项 是 
2 (hh) . NN。 则 最 小 化 31 wt (一 ynh(zn)) 就 转化 为 最 小 化 BY (h)。 要 让 
BL (四 最 小 化 ， 正 是 由 AdaBoost 中 的 base algorithm 所 做 的 事情 。 所 以 说 ， 
AdaBoost 中 的 base algorithm 正 好 帮 有 我 们 找到 了 梯度 下 降 中 下 一 步 最 好 的 函数 方向 。 


A: good g: = h for ‘gradient descent 


以 上 就 是 从 数学 上 ， 从 gradient descent 角 度 验证 了 AdaBoost 中 使 用 base algorithm 得 
到 的 9 就 是 让 五 4p4 减 小 的 方向 ， 只 不 过 这 个 方向 是 一 个 函数 而 不 是 向 量 。 


在 解决 了 方向 问题 后 ， 我 们 需要 考虑 步 进 长 度 7 如 何 选 取 。 方 法 是 在 确定 方向 % 后 ， 
选取 合适 的 7， 使 妃 4Dp4 取 得 最 小 值 。 也 就 是 说 ， 把 瑟 4p4 看 成 是 步 进 长 度 7 的 函数 ， 
目标 是 找到 思 4Pp4 最 小 化 时 对 应 的 m 值 。 


AdaBoost finds g; by approximately min Epa= Su () exp (—ynnh(Xn)) 


after finding g;, how about min Epa= DS ut! ) exp (— ynn9i(Xn)) 
yy n=1 


-| 


目的 是 找到 在 最 佳 方向 上 的 最 大 步 进 长 度 ， 也 就 是 steepest decent。 我 们 先 把 4p4 
表达 式 写 下 来 : 


N 
Eapa = S ub ezp(—yn"lgt (Tn)) 


n= 二 1 


上 式 中 ， 有 两 种 情况 需要 考虑 : 


en 一 人 a ult ) erp(— 7) correct 


( 
° Yn #9 (zn): ult ) ezp(+n) incorrect 


N 
Bapa = (ud) ((1— a)erp(—n) + et ezp(+)) 


n=1 


s Optimal m: somewhat ‘greedily faster’ than fixed (small) 7 
一 Called steepest descent for optimization 
s two cases inside summation: 
®» yn = gi(Xn) : uM exp (—n) (correct) 


。 yn@# 9:(Xn) : ul! exp (+7) (incorrect) 


* Eo = (TH) (C10) exp(-W) + tr exp(+)) 


OE 
然后 对 7 求 导 , 令 一 < 二 0, 得: 


1 一 Et 
711 一 1 | 一 = ou 
Et 

由 此 看 出 ， 最 大 的 步 进 长 度 就 是 ay ， 即 AdaBoost 中 计算 % 所 占 的 权重 。 所 以 ， 
AdaBoost 算 法 所 做 的 其 实 是 在 gradient descent 上 找到 下 降 最 快 的 方向 和 最 大 的 步 进 
长 度 。 这 里 的 方向 就 是 9; ， 它 是 一 个 国 数 ， 而 步 进 长 度 就 是 ai 。 也 就 是 说 ， 在 
AdaBoost 中 确定 qt 和 Qt 的 过 程 就 相当 于 在 gradient descent 上 寻找 最 快 的 下 降 方 向 和 
最 大 的 步 进 长 度 。 


Gradient Boosting 


前 面 我 们 从 gradient descent 的 角度 来 重新 介绍 了 AdaBoost 的 最 优化 求解 方法 。 整 个 
过 程 可 以 概括 为 : 


， 轩 So 于 = 
Le We N SD (~ 区 argr(Xn) 和 we ) ) 


T 了 一 1 


with binary-output hypothesis h 


[3 


以 上 是 针对 binary classification 问 题 。 如 果 往 更 一 般 的 情况 进行 推广 ， 对 于 不 同 的 
error function， 比 如 logistic error function 或 者 regression 中 的 squared error 
function， 那 么 这 种 做 法 是 否 仍然 有 效 呢 ? 这 种 情况 下 的 GradientBoost 可 以 写成 如 下 
形式 : 


Etcte[[>ill2ieiefii 


N t—1 
， 
min min N 2 err (> argr(Xn) + nh(Xn), ,] 


7 一 1 


with any hypothesis h (usually real-output hypothesis) | 
仍然 按照 gradient descent 的 思想 ， 上 式 中 ，h (zn ) 是 下 一 步 前 进 的 方向 ，? 是 步 进 长 
度 。 此 时 的 error function 不 是 前 面 所 讲 的 exp 了， 而 是 任意 的 一 种 error function。 
此 ， 对 应 的 hypothesis 也 不 再 是 binary classification， 最 常用 的 是 实数 输出 的 
hypothesis， 例 如 regression。 最 终 的 目标 也 是 求解 最 佳 的 前 进 方向 h(x ) 和 最 快 的 步 
进 长 度 77。 


GradientBoost: allows extension to different 
err for regression/soft classification/etc. 


接 下 来 ， 我 们 就 来 看 看 如 何 求解 regression 的 GradientBoost 问 题 。 它 的 表达 式 如 下 所 


小 . 


N el 
上 间 二 全 2 
min min 六 sn (> argr(Xn) +nh(Xn), yn) with err(s, y) = (s—y) 


Sn 


| 


利用 梯度 下 降 的 思想 ， 我 们 把 上 式 进行 一 阶 泰勒 展开 ， 写 成 梯度 的 形式 


N N 
taylor 1 1 Oerr(s, yn) 
min... 六 min er(sn, yn) + > nh(xn) — 
h N n=1 et N n=1 0s S=5n 
N 
= min constants 十 N 2 h(xXn): 2(Sn — yn) 
| -1 


上 式 中 ， 由 于 regression 的 error function 是 squared 的 ， 所 以 ， 对 s 的 导数 就 是 

2(sn 一 yn )。 其 中 标注 灰色 的 部 分 表示 常数 ， 对 最 小 化 求解 并 没有 影响 ， 所 以 可 以 忽 
略 。 很 明显 ， 要 使 上 式 最 小 化 ， 只 要 令 h(zn ) 是 梯度 2(s, 一 加 ) 的 反方 向 就 行 了 ， 即 
h(zn) 二 一 2(sn 一 Yn)。 但 是 直接 这 样 赋值 ， 并 没有 对 h(x ) 的 大 小 进行 限制 ,一 
般 不 直接 利用 这 个 关系 求 出 h(x )。 


| N 
min constants 十 "Dy 2h(xn)(sn — yn) 


实际 上 h(xn, ) 的 大 小 并 不 重要 ， 因 为 有 步 进 长 度 %。 那 么 ,我 们 上 面 的 最 小 化 问题 中 需 
要 对 及 (zn ) 的 大 小 做 些 限制 。 限 制 h(zn, ) 的 一 种 简单 做 法 是 把 h(x ) 的 大 小 当成 一 个 
惩罚 项 (hz (zx)) 添加 到 上 面 的 最 小 化 问题 中 ， 这 种 做 法 与 regularization 类 似 。 如 下 
图 所 示 ， 经 过 推导 和 整理 ， 忽 略 常数 项 ， 我 们 得 到 最 关心 的 式 子 是 : 


min 2_ (h(n) — (yn — sn))) 


上 式 是 一 个 完全 平方 项 之 和 ，y, 一 sn 表示 当前 第 n 个 样本 真实 值 和 预测 值 的 差 ， 称 之 
为 余数 。 余 数 表 示 当 前 预测 能 够 做 到 的 效果 与 真实 值 的 差 值 是 多 少 。 那 么 ， 如 果 我 们 
想 要 让 上 式 最 小 化 ， 求 出 对 应 的 h(x ) 的 话 ， 只 要 让 h(x ) 尽 可 能 地 接近 余数 

yn 一 Sn 即 可 。 在 平方 误差 上 尽 可 能 接近 其 实 很 简单 ， 就 是 使 用 regression 的 方法 ， 对 
所 有 N 个 点 (zn, Yn 一 Sn ) 做 squared-error 的 regression， 得 到 的 回归 方程 就 是 我 们 要 
求 的 gi (zn )。 


e magnitude of h does not matter: because 7 will be optimized next 
e penalize large magnitude to avoid naive solution 
N 


min constants + (2h(xn)(sn — yn) + (h(xn))’) 


1 


N 
1 到 
= constants 十 N > (constant + (h(xn) — (yn — sn)) ) 
1 


。 Solution of penalized approximate functional gradient: 
squared-error regression on {(Xn, yn — Sn )} 
Ne 


residual 


i 


以 上 就 是 使 用 GradientBoost 的 思想 来 解决 regression 问 题 的 方法 ， 其 中 应 用 了 一 个 非 
常 重要 的 概念 ， 就 是 余数 y,, 一 s"。 根 据 这 些 余数 做 regression， 得 到 好 的 矩 gi (Zn ) 
， 方 向 函数 9% (zn ) 也 就 是 由 余数 决定 的 。 


GradientBoost for regression: 
find g: = h by regression with residuals 


在 求 出 最 好 的 方向 函数 gi (zn ) 之 后 ， 就 要 来 求 相 应 的 步 进 长 度 。 表 达 式 如 下 : 


after finding 9; = h, 


el 
minYn Der (5 argr (Xn) +ng(xn), yn) with err(s,y) = (s—y) 


nN 
Sn 


同样 ， 对 上 式 进 行 推导 和 化 简 ， 得 到 如 下 表达 式 : 
1 1 
mn N >》 (Sn 十 79i(Xn) 一 yn) 一 " D>_((yn 一 有 0) 一 79r(Xxn))” 
m=1 1 
一 0ne-Vvariable linear regression on {(9i-transformed input, residual)} 


上 式 中 也 包含 了 余数 yn 一 sn ， 其 中 gi (Zn ) 可 以 看 成 是 Zn 的 特征 转换 ， 是 已 知 量 。 那 


么 ， 如 果 我 们 想 要 让 上 式 最 小 化 ， 求 出 对 应 的 ”的话 ， 只 要 让 779: (Zn ) 尽 可 能 地 接近 余 
数 yn, 一 sn" 即 可 。 显 然 ， 这 也 是 一 个 regression 问 题 ， 而 且 是 一 个 很 简单 的 形 如 y=ax 
的 线性 回归 ， 只 有 一 个 未 知 数 7。 只 要 对 所 有 NN 个 点 (mg (Xn), yn 一 sn ) 做 squared- 
error 的 linear regression， 利 用 梯度 下 降 算 法 就 能 得 到 最 佳 的 77。 


将 上 述 这 些 概念 合并 到 一 起 ， 我 们 就 得 到 了 一 个 最 终 的 演算 法 Gradient Boosted 
Decision Tree(GBDT)。 可 能 有 人 会 问 ， 我 们 刚才 一 直 没 有 说 到 Decison Tree， 只 是 讲 
到 了 GradientBoost 啊 ”下 面 我 们 来 看 看 Decison Tree 究竟 是 在 哪 出 现 并 使 用 的 。 其 实 
刚刚 我 们 在 计算 方向 函数 % 的 时 候 ， 是 对 所 有 N 个 点 (zn, yn 一 sn ) 做 squared-error 的 
regression。 那 么 这 个 回归 算法 就 可 以 是 决策 树 C&RT 模 型 (决策 树 也 可 以 用 来 做 
regression) 。 这 样 ， 就 引入 了 Decision Tree， 并 将 GradientBoost 和 Decision Tree 结 
合 起 来 ， 构 成 了 真正 的 GBDT 算 法 。GBDT 算 法 的 基本 流程 图 如 下 所 示 : 


Gradient Boosted Decision Tree (GBDT) 
一 
Or 一 i200 


@ obtain 9gi by A({(Xn, yn -sn where A is a (Squared-erron) 
regression algorithm 
一 how about sampled and pruned C&RT? 


@ compute a: = OneVarLinearRegression({(9t(xn),yn — sn)}) 
@ update sn + sn 十 ai9t(Xn) 
return G(x) = 31 argi(x) 


值得 注意 的 是 ，sy 的 初始 值 一 般 均 设 为 0， 即 s1 二 sy 一 .… 一 sy 一 0。 每 轮 迭 代 
中 ， 方 向 函数 % 通过 C&RT 算 法 做 regression， 进 行 求解 ; 步 进 长 度 7 通过 简单 的 单 参 
数 线性 回归 进行 求解 ; 然后 每 轮 更 新 sn 的 值 ， 即 s。 4- sn 十 a gi (Xn)。T 轮 迭代 结 
束 后 ， 最 终 得 到 G(z) = 六 7 axg(z)。 


值得 一 提 的 是 ， 本 节 课 第 一 部 分 介绍 的 AdaBoost-DTree 是 解决 binary classification 问 
题 ， 而 此 处 介绍 的 GBDT 是 解决 regression 问 题 。 二 者 具有 一 定 的 相似 性 ， 可 以 说 
GBDT 就 是 AdaBoost-DTree 的 regression 版 本 。 


GBDT: ‘regression Sibling of AdaBoost-DTree 
一 popular in practice 


Summary ofAggregation Models 


从 机 器 学 习 技 法 课程 的 第 7 节 课 笔记 到 现在 的 第 11 节 课 笔 记 ， 我 们 已 经 介绍 完 所 有 的 
aggregation 模 型 了 。 接 下 来 ， 我 们 将 对 这 些 内 容 进行 一 个 简单 的 总 结 和 概括 。 
首先 ， 我 们 介绍 了 blending。blending 融 是 将 所 有 已 知 的 9%i aggregate 结 合 起 来 ， 发 挥 
集体 的 智慧 得 到 G。 值 得 注意 的 一 点 是 这 里 的 9%: 都 是 已 知 的 。blending 通 常 有 三 种 形 
式 : 

。 uniform: 简单 地 计算 所 有 .9 的 平均 值 

。 non-uniform: 所 有 gi 的 线性 组 合 

。 conditional: 所 有 9: 的 非 线 性 组 合 


其 中 ，uniform 采 用 投票 、 求 平均 的 形式 更 注重 稳定 性 ; 而 non-uniform 和 conditional 追 
求 的 更 复杂 准确 的 模型 ， 但 存在 过 拟 合 的 危险 。 


blending: aggregate after getting diverse gr | 











olejalellilelets! 


nonlinear model on 
gr-transformed inputs 





lalelamilelioldad 
linear model on 
gt-transformed inputs 





Simple 
voting/averaging of gr 








uniform for ‘stability’; 
non-uniform/conditional carefully for 
‘complexity’ 


刚才 讲 的 blending 是 建立 在 所 有 gi 已 知 的 情况 。 那 如 果 所 有 gi 未 知 的 情况 ， 对 应 的 就 
是 learning 模 型 ， 做 法 就 是 一 边 学 gt， 一 边 将 它们 结合 起 来 。learning 通 常 也 有 三 种 形 
式 (与 blending 的 三 种 形式 一 一 对 应 ) : 

。 Bagging: 通过 bootstrap 方 法 ， 得 到 不 同 9: ， 计 算 所 有 9%i 的 平均 值 

。 AdaBoost: 通过 bootstrap 方 法 ， 得 到 不 同 %: ， 所 有 9%: 的 线性 组 合 

。 Decision Tree: 通过 数据 分 割 的 形式 得 到 不 同 的 g: ， 所 有 gi 的 非 线 性 组 合 


然后 ， 本 节 课 我 们 将 AdaBoost 征 伸 到 另 一 个 模型 GradientBoost。 对 于 regression 问 
题 ，GradientBoost 通 过 residual fitting 的 方式 得 到 最 佳 的 方向 函数 gs 和 步 进 长 度 m。 


learning: aggregate as well as getting diverse or | 
Bagging AdaBoost 















Decision Tree 

















diverse gi: by diverse gi diverse g: 
bootstrapping; by reweighting; by data splitting; 
uniform vote linear vote conditional vote 
by nothing :-) by steepest search by branching 


GradientBoost 
diverse gi 

by residual fitting; 
linear vote 

by steepest search 


boosting-like algorithms most popular | 


除了 这 些 基 本 的 aggregation 模 型 之 外 ， 我 们 还 可 以 把 某 些 模型 结合 起 来 得 到 新 的 
aggregation 模 型 。 例 如 ，Bagging 与 Decision Tree 结合 起 来 组 成 了 Random Forest。 
Random Forest 中 的 Decision Tree 是 比较 “成 盛 " 的 树 ， 即 每 个 树 的 gi 都 比较 强 一 些 。 
AdaBoost 与 Decision Tree 结合 组 成 了 AdaBoost-DTree。AdaBoost-DTree 的 Decision 
Tree 是 比较 “ 矮 弱 "的 树 ， 即 每 个 树 的 % 都 比较 弱 一 些 ， 由 AdaBoost 将 所 有 弱 弱 的 树 结 
合 起 来 ， 让 综合 能 力 更 强 。 同 样 ，GradientBoost 与 Decision Tree 结合 就 构成 了 经 典 的 
算法 GBDT。 


Site AdaBoost Decision Tree 










AdaBoost-DTree 


AdaBoost 
+ ‘Weak’ DTree 


Random Forest 


randomized bagging 
+ Strong DTree 






GradientBoost 






GradientBoost 
+ Weak DTree 


all three frequently used in practice | 


Aggregation 的 核心 是 将 所 有 的 % 结 合 起 来 ， 融 合 到 一 起 ， 即 集体 智慧 的 思想 。 这 种 做 
法 之 所 以 能 得 到 很 好 的 模型 G， 是 因为 aggregation 具 有 两 个 方面 的 优点 : cure 
underfitting 和 cure overfitting。 


第 一 ，aggregation models 有 助 于 防止 欠 拟 合 (underfitting) 。 它 把 所 有 比较 弱 的 ge 
结合 起 来 ， 利 用 集体 智慧 来 获得 比较 好 的 模型 G。aggregation 就 相当 于 是 feature 


transform， 来 获得 复杂 的 学 习 模 型 。 


第 二 ，aggregation models 有 助 于 防止 过 拟 合 (overfitting) 。 它 把 所 有 gi 进行 组 合 ， 

容易 得 到 一 个 比较 中 庸 的 模型 ， 类 似 于 SVM 的 large margin 一 样 的 效果 ， 从 而 避免 一 
些 极端 情况 包括 过 拟 合 的 发 生 。 从 这 个 角度 来 说 ，aggregation 起 到 了 regularization 的 
效果 。 


由 于 aggregation 具 有 这 两 个 方面 的 优点 ， 所 以 在 实际 应 用 中 aggregation models 都 有 
很 好 的 表现 。 





cure Overfitting 
。 G(X) moderate” 


e aggregation 
一 regularization 


oiel lu 
。 G(xX) ‘strong’ 
。 aggregation 

一 feature transform 









proper aggregation (a.k.a. ‘ensemble’) 
一 better performance | 
总 结 


本 节 课 主要 介绍 了 Gradient Boosted Decision Tree。 首 先 讲 如 何 将 AdaBoost 与 
Decision Tree 结 合 起 来 ， 即 通过 sampling 和 pruning 的 方法 得 到 AdaBoost-D Tree 模 
型 。 然 后 ， 我 们 从 optimization 的 角度 来 看 AdaBoost， 找 到 好 的 hypothesis 也 就 是 找到 
一 个 好 的 方向 ， 找 到 权重 a 也 就 是 找到 合适 的 步 进 长 度 。 接 着 ,我 们 从 binary 


classification 的 0/1 error 推 广 到 其 它 的 error function， 从 Gradient Boosting 角 度 推导 了 
regression 的 squared error 形 式 。Gradient Boosting 其 实 就 是 不 断 进 代 ， 做 residual 
fitting。 并 将 其 与 Decision Tree 算法 结合 ， 得 到 了 经 典 的 GBDT 算 法 。 最 后 ， 我 们 将 所 
有 的 aggregation models 做 了 和 总结 和 概括 ， 这 些 模型 有 的 能 防止 众 拟 合 有 的 能 防止 过 
拟 合 ， 应 用 十 分 广泛 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 


